Molekylärbiologisk metodik
Laboration Bioinformatik
NCBI - blast
Följande “read” kommer från en hund som sekvenserats och ser ut så här i FASTQ filen:
@HWI-D00457:92:C625RANXX:4:1305:7506:65895 2:N:0:TCCGGAGAGGCTCTGA
TCATAGGTCATCCACAAGTGATGTTTATGGAACCACATCGCATTGTACAGCCACTCTCGGAAGTAGGACTTGCTCCAGCGGGTCTGCTGGTTTAACCATCTGAGATACTCTATAGGCGTCTCCG
+
?ABBBGGGGGCFFGGEGEGGDF;=@GDGGGGGDGGGGGEGG<FBGFGGB@CBFGEGGEGGGG@CC1BGGGGGG@GGGGGGGGBAGEGGGGCFGGGGCCGEGGGGFGCDFFGEGG0CD.>>C@DG
Du ska nu använda BLAST och se om det går att hitta denna eller en liknande sekvens i en databas. Kopiera den del som utgör sekvens och klistra in i BLASTN. Använd default settings. Klicka på BLAST.
Q1. Vilken gen hamnar högst upp listan?
Den första genen vi får en träff på är geneen HAS2
Q2. Vilken organism har högst score och bäst e-value?
Organismen med högst score och E-value är Canis Lupus (Varg).
Q3. Nämn några fler organismer i toppen av listan.
Exempel på andra organismer är Vulpes vulpes (räv), bos taurus (ko), sus scrofa (gris)
UCSC - blat
Gå nu till UCSC. Använd “Tools Blat” i menyn och välj människa. Klistra in din sekvens och klicka på submit. Om sekvensen mappar till flera ställen välj den som har högst score.
Q4. Hur lik är denna sekvens från hund vid jämförelse som här med människa i %?
Den med högst score (100), är 93.2% identisk med människa.
Klicka på länken browser.
Q5. Hittar du samma gen som när du använde BLASTN?
Vi hittar samma gen i människa HAS2 som i hund. Vår sekvens ser du i YourSeq, Genen den matchar ser du direct under (HAS2, HAS2/NM_005328.3)
Q6. Ligger denna sekvens i en intron eller exon?
Zooma ut så mycket så att du ser hela genen. (Zoom hittar du längst upp till höger).
De blåa boxarna är exoner, smal linje är intron. Här ser du att YourSeq ligger i den sista exonen på HAS2. (Du ser riktningen på genen med pilarna i intronerna). HAS2 ligger i negativ riktning.
Q7. Hur många exoner har den här genen?
4 exoner
Leta i vänster kanten efter “Cons 100 Verts”.
Q8. Kan du säga vilken del av genen som är mest lik, d.v.s. konserverad mellan arter?
De mest konserverade regionerna är exonerna.
NGS - Identifiera Mutationerna
Blod ifrån en individ med Alpers syndrom var sekvenserad för att identifiera mutationen/mutationerna skyldiga till sjukdomen. Efter att ha analyserat datan, forskarna kom fram till en lista med mutationer i VCF formatet. Ladda ner filen: Alpers.zip, unzippa den och öppna den i excel. Lättast är om du öppnar ett tomt excel dokument och sedan drar in den unzippade Alpersfilen in till det tomma excel bladet.
Raderna som startar med ## är HEADERN.
Lite statistik är visualiserade för varje predikterad variant, förklaringen för denna statistiken hittar man i ##FORMAT eller ##INFO raderna.
Q9. Vad står DP för och vad betyder den?
##FORMAT=<ID=DP,Number=1,Type=Integer,Description=“Approximate read depth (reads with MQ=255 or with bad mates are filtered)”>
När varianterna blivit predikterade har en flagga rörande kvaliteten för varianten lagts till. Dessa filter kan hittas i ##FILTER raderna.
Q10. Om mutationen har flaggats för LowDP, hur många “reads” kan du då förvänta dig att varianten har?
##FILTER=<ID=LowDP,Description=“DP < 10.0”>
Låt oss nu reformatera filen så att vi kan identifiera varianter som ger sjukdomen.
I
Kolumn Jhar vi informationen om Genotypen (GT), Allele Djup (AD), Djup (DP), Genotyp Kvalitet (GQ) och en kvalitetspoäng (PL). Som du kan se är dessa separerade med:.- Välj datan för
Kolumn J - Gå till
Data -> Text till kolumner - Välj
Avgränsade fält - Ticka för
Annanoch skriv:, Tryck påNästa - Se till att välja första kolumnen (du ser den i svart), och välj
Text - Tryck på
Slutför
- Välj datan för
Nu när datan har blivit separerad, modifiera/lägg till titlar så att tabellen ser ut som följande, se bild här.
I
Kolumn Hhar vi annotaterings-information om varianterna, som: gene, aminoacid change and impact, osv. Dessa är separerade med|.- Kopiera
Kolumn HtillKolumn O - Välj datan för
Kolumn O - Gå till
Data -> Text till kolumner - Välj
Avgränsade fält - Ticka för
Annanoch skriv|, Tryck påNästa - Ändra kolumnerna
SYMBOL,EXONochINTRONtillText. - Tryck på
Slutför
- Kopiera
- Välj hela raden som startar med
#CHROMoch tryck på “funnel” (Sortera och filtrera) ikonen i Toolbar: se bild här Tryck på filtrera.
Filtrera dina varianter för att identifiera mutationer som kan orsaka sjukdomen. Kom ihåg att vi letar efter mutationer som är:
- Passerar filter (FILTER kolumn)
- Har högt coverage (depth kolumn)
- Är inom en protein kodande gen (BIOTYPE kolumn)
- Ger en förändring i protein sekvensen (CONSEQUENCE eller AMINO_ACIDS kolumnerna), och
- Är en aminosyraförändring som är skadande för proteinet (SIFT och PPOLYPHEN kolumnerna)
Du behöver också veta att detta är en recessiv sjukdom (genotype kolumn)
Q11. POLG är en välkänd gen som är kopplad till Alpers syndrom, finns den med i listan på dina filtrerade gener?
POLG finns inte då den är flaggad LowDP i vår lista.
Q12. NARS2 är en annan gen kopplad till sjukdomen, finns den med i din lista?
Ja om du inte filtrerar varianten för hårt under SIFT deleterious(0.01)
Bra Jobbat!